MMLU Pro

大模型已经对很多行业产生了巨大的影响，如何准确评测大模型的能力和效果，已经成为业界亟待解决的关键问题。生成式AI模型，如大型语言模型（LLMs），能够生成高质量的文本、代码、图像等内容，但其评测却相对很困难。而此前很多较早的评测也很难区分当前最优模型的能力。以MMLU评测为例，2023年3月份，GPT-4在MMLU获得了86.4分之后，将近2年后的2024年年底，业界最好的大模型在MMLU上得分也就90.5，提升十分有限。为此，滑铁卢大学、多伦多大学和卡耐基梅隆大学的研究人员一起提出了MMLU P

更新于 2026年4月6日·2,837 次浏览

问题数量: 38500
发布机构: Berkeley Artificial Intelligence Research
评测类别: 综合评估
评测指标: Accuracy
支持语言: 英文
难度等级: 中等难度

简介

MMLU 的专业级别版本，包含更具挑战性的问题，旨在评估模型在专业领域的理解和推理能力。

MMLU Pro评测最新大模型排名与完整榜单数据

查看 MMLU Pro 的最新得分、模型模式、发布时间与参数规模，快速了解当前完整榜单表现。

数据来源：DataLearnerAI

数据优先来自官方发布（GitHub、Hugging Face、论文），其次为评测基准官方结果，最后为第三方评测机构数据。了解数据收集方法

模型模式说明

排名	模型				开源情况
	OpenAI o1 常规模式	91.04	2024-12-05	未知	闭源
	Gemini 3.0 Pro (Preview 11-2025) 开启思考	90.00	2025-11-18	未知	闭源
	Claude Opus 4.5 开启思考	90.00	2025-11-25	未知	闭源
4	Qwen 3.6 Plus Preview 开启思考	88.50	2026-03-31	未知	闭源
5	Claude Opus 4.1 开启思考	88.00	2025-08-06	未知	闭源
6	Claude Sonnet 4.5 开启思考	88.00	2025-09-30	未知	闭源
7	M2.1 开启思考	88.00	2025-12-23	2300亿	免费商用
8	Qwen3.5-397B-A17B 开启思考	87.80	2026-02-16	397亿	免费商用
9	Hunyuan-T1 常规模式	87.20	2025-03-21	未知	闭源
10	Grok 4 开启思考	87.00	2025-07-10	未知	闭源
11	GPT-4.5 常规模式	86.10	2025-02-28	未知	闭源
12	Qwen3.5-27B 开启思考	86.10	2026-02-25	270亿	免费商用
13	Gemini 2.5-Pro 常规模式	86.00	2025-06-05	未知	闭源
14	Qwen3-Max-Thinking 开启思考	85.70	2026-01-26	10000亿	闭源
15	OpenAI o3 常规模式	85.60	2025-04-16	未知	闭源
16	Gemma 4 31B 开启思考	85.20	2026-04	31亿	免费商用
17	Claude Opus 4 常规模式	85.00	2025-05-23	未知	闭源
18	DeepSeek-R1-0528 开启思考	85.00	2025-05-28	6710亿	免费商用
19	DeepSeek-V3.1 开启思考	85.00	2025-08-20	6710亿	免费商用
20	DeepSeek-V3.1 Terminus 开启思考	85.00	2025-09-22	6710亿	免费商用
21	DeepSeek-V3.1 Terminus 常规模式	85.00	2025-09-22	6710亿	免费商用
22	DeepSeek V3.2-Exp 开启思考	85.00	2025-09-29	6710亿	免费商用
23	Grok 4.1 Fast 开启思考	85.00	2025-11-19	未知	闭源
24	GLM-4.5 开启思考	84.60	2025-07-28	3550亿	免费商用
25	Kimi K2 Thinking 开启思考	84.60	2025-11-06	10400亿	免费商用
26	Qwen3-235B-A22B-Thinking-2507 开启思考	84.40	2025-07-25	2350亿	免费商用
27	Qwen3-235B-A22B-Thinking 开启思考	84.40	2025-07-30	305亿	免费商用
28	GLM-4.7 开启思考	84.30	2025-12-22	3580亿	免费商用
29	DeepSeek-R1 常规模式	84.00	2025-01-20	6710亿	免费商用
30	Claude Sonnet 4 开启思考	84.00	2025-05-23	未知	闭源

继续滚动可加载剩余 86 条

MMLU Pro评测最新大模型排名与完整榜单数据

MMLU Pro 排名